---
title: 'Datos y modelos para "El cólera en Salamanca: Análisis comparado de las epidemias del siglo XIX"'
subtitle: 'Data and models for "Cholera in Salamanca: Comparative analysis of the 19th Century epidemics"'
author:
- José Antonio Ortega ^[Departamento de Economía e Historia Económica e IME, Universidad de Salamanca. Financiación parcial a través de proyecto SA049G19 de la Junta de Castilla y León.]
- Clara García-Moro ^[Facultat de Biología, Universitat de Barcelona]
date: "15/12/2020"
output:
  bookdown::pdf_document2:
    toc: no
    number_sections: false
    fig_caption: yes
abstract: |
  | Harvard Dataverse url: https://doi.org/10.7910/DVN/WZV5BZ
  |
  | Article citation: Ortega, José Antonio and García-Moro, Clara (2020) El cólera en Salamanca: Análisis comparado de las epidemias del siglo XIX / Cholera in Salamanca: Comparative analysis of the 19th Century epidemics, *Revista de Demografía Histórica - Journal of Iberoamerican Population Studies*, XXXVIII, III. issn: 2696-4325
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE, message=FALSE,
                      warning=FALSE,dpi=300)
# library(officedown)
library(tidyverse)
library(lubridate)
library(readxl)
library(flextable)
library(tsibble)
library(fable)
library(ggsci)
library(Hmisc)
library(jtools)
library(printr)
library(knitr)

load("colera-Sal-Data.RData")

```

\newpage

## Incidencia por parroquias: Modelos y test de hipótesis

## Incidence according to parish: Models and hypothesis tests

### Tests de hipótesis nula: Falta de asociación entre mortalidad epidémica (1834) o incidencia (1855) y parroquia

### Hypothesis test of null: No association between parish geography and epidemic mortality (1834) / Incidence (1885).

```{r}
chisq1=parroquias %>% transmute(Si=Defs_1834,No=Poblac_1836-Defs_1834) %>% chisq.test() %>% tidy()
chisq2=parroquias %>% transmute(Si=Incidencia_1885*Poblac_1887/1000,No=Poblac_1887-Si)  %>% na.omit() %>% chisq.test() %>% tidy()
tribble(~Año,~Concepto,
        1834, "Mortalidad general",
        1885, "Incidencia epidémica"
        ) %>% bind_cols(bind_rows(chisq1,chisq2)) %>% 
  kable(booktabs=TRUE,caption="Tests of null: No differences by parish")
```

En ambos casos hay una asociación clara entre geografía parroquial y cólera. En el caso de 1834 los datos se refieren a la mortalidad general por parroquias, en el de 1885-1886 a la tasa de incidencia del cólera.

In both cases there is a clear association between parish geography and cholera. In 1834 data refers to general parish mortality. In 1885-86 it refers to cholera incidence rate.


### Modelos de Intensidad de crisis en 1834 y de incidencia en 1885-86

### Models for crisis intensity 1834 and 1885-86 cholera incidence

Estos son los modelos lineales que aparecen reseñados en el texto. Las observaciones se corresponden con las parroquias.

These are the linear models mentioned in the text. Observations correspond to parish data.

```{r, fig.cap="Modelos lineales por parroquias"}
mod1=lm(IntCrisis_1834~Alberca+Ribera+Pobreza_1835,data=parroquias)
mod2=lm(Incidencia_1885~Alberca+Ribera+Pobreza_1835,data=parroquias)

export_summs(mod1,mod2,error_format="[{p.value}]",
             model.names=c("Intensidad de crisis 1834","Tasa de incidencia 1885-86"))

```

En el primer modelo para 1834 se observa asociación entre la intensidad de la mortalidad de crisis y la tasa de pobreza de 1835 (p-valor de `r mod1 %>% tidy %>% pull(p.value) %>% .[4] %>% round(3)`) y, menos importante, la presencia junto al río (p-valor de `r mod1 %>% tidy %>% pull(p.value) %>% .[3] %>% round(3)`). El coeficiente de las albercas no es estadísticamente significativo.

En el caso del modelo de 1885-86 ninguno de los coeficientes es estadísticamente significativo. No son comparables los dos modelos al incluir el de 1885-86 las incidencias en las poblaciones institucionales y hospitales. La tasa de pobreza de 1834 tampoco tiene porque corresponderse con las condiciones en 1885-86.

The first model for 1834 shows association between crisis mortality at the parish level and the poverty rate for 1835 (p-value `r mod1 %>% tidy %>% pull(p.value) %>% .[4] %>% round(3)`) and, less important, with river location (p-value  `r mod1 %>% tidy %>% pull(p.value) %>% .[3] %>% round(3)`). The coefficient for location next to a waste stream is not statistically significant.

For 1885-86 none of the coefficients is statistically significant. The two models are not comparable to the extent that 1885-86 includes institutional incidence including hospitals. The poverty rate for 1834 also does not need to correspond to conditions in 1885-86.


\newpage

## Tasas de Mortalidad e Incidencia por sexos y edades en 1885-86

## Age and sex-specific mortality and incidence rates in 1885-86

### Tasas e intervalos binomiales exactos al 95%

### Rates and 95% exact binomial intervals

```{r}
Edades1885 %>% 
  select(Variable,Edadg,Sexo,Tasa,Lower,Upper) %>% 
  pander::pander(round=2)

# kable(caption="Rates and 95% exact binomial intervals",
#      digits=3,booktabs=TRUE)

```


### Modelos logit / Logit models

Modelos logit correspondientes a mortalidad e incidencia de cólera por sexo y edades en 1885-86. Los modelos 1 son modelos aditivos y los modelos 2 incluyen interacción entre sexo y edad. En ambos casos los modelos sin interacción son mejores, tanto por criterios de decisión (AIC, BIC) como en base a test chi-cuadrado (incluidos).

Logit models corresponding to cholera mortality and incidence by age and sex in the 1885-86 epidemics. In both cases, we have estimated a model 1 where variables enter additively, and a model 2 including age and sex interactions. In both cases the models without interaction are better, both according to statistical selection criteria (AIC, BIC) and chi-squared tests (shown below). We show the preferred models with no interactions and the statistical criteria and test statistic for selection.

```{r, results='asis'}
mCasos=
Edades1885 %>% 
  mutate(Personas0=Pob-Personas) %>% 
  filter(Sexo!="T",Variable=="Casos") %>%
  with(glm(cbind(Personas,Personas0)~Sexo*Edadg,family=binomial()))

mCasos0=
  Edades1885 %>% 
  mutate(Personas0=Pob-Personas) %>% 
  filter(Sexo!="T",Variable=="Casos") %>%
  with(glm(cbind(Personas,Personas0)~Sexo+Edadg,family=binomial()))


mDef=
  Edades1885 %>% 
  mutate(Personas0=Pob-Personas) %>% 
  filter(Sexo!="T",Variable=="Defunciones") %>%
  with(glm(cbind(Personas,Personas0)~Sexo*Edadg,family=binomial()))


mDef0=
  Edades1885 %>% 
  mutate(Personas0=Pob-Personas) %>% 
  filter(Sexo!="T",Variable=="Defunciones") %>%
  with(glm(cbind(Personas,Personas0)~Sexo+Edadg,family=binomial()))


Mortalidad=mDef0
Incidencia=mCasos0

stargazer::stargazer(Mortalidad,Incidencia,title="logit models for cholera mortality and incidence, 1885-86",
                     dep.var.labels.include=FALSE,
    object.names=TRUE,model.numbers=FALSE,header=FALSE)

                     
```

\newpage

```{r, comment=NA}

tDef=anova(mDef0,mDef,test="Chisq") %>% tidy()
tCasos=anova(mCasos0,mCasos,test="Chisq") %>% tidy()

mcomp=list(mDef,mDef0,mCasos,mCasos0) %>% map_df(glance) %>% 
  mutate(DF=df.null-df.residual,
         Variable=c("Mortalidad","Mortalidad","Incidencia","Incidencia"),Interaction=c("Yes","No","Yes","No")) %>% 
  select(Variable,Interaction,DF,logLik,AIC,BIC) %>% 
  bind_cols(bind_rows(tDef,tCasos) %>% select(chi2=Deviance,p.value))

options(knitr.kable.NA = '') 
kable(mcomp,digits=2,caption="Model selection criteria and significance tests",booktabs=TRUE)

```


## Curso de las epidemias

## Epidemic course

Datos diarios de incidencia y mortalidad en las epidemias de cólera de salamanca. Incluye información ampliada respecto al gráfico 2.

Daily data regarding incidence and mortality in Salamanca's cholera epidemics. The table expands the information included in figure 2.

### Epidemia de 1834 / 1834 epidemic

```{r}
ts1834 %>% as_tibble() %>% pander::pander()
```

Fuente / Source: Boletín Oficial de la Provincia de Salamanca. 3-9-1834 hasta 19-10-1834. Biblioteca General, Universidad de Salamanca.

### Epidemia de 1885-86 / 1885-86 epidemic

```{r}
ts1885 %>% pander::pander()
```

Fuente / Source: López Alonso (1895).





